AI说:没错!玩游戏绝对能促进学习
全文共1593字,预计阅读时长2分钟
作为网瘾少年,你在中学时代最大的梦想,是否是只打游戏,不做作业?又是否曾试图和家长据理力争过——打游戏是为了锻炼大脑,更好地学习呢?
然而,小芯想都不用想就知道你的美梦已经碎得彻彻底底。因为,你的家长不叫DeepMind。
近日,DeepMind研究室为了训练AI,竟然专门为其开发了3D小游戏,而且,不通关还不准停。游戏,正式成为了AI的家庭作业。
扒一扒,AI为何需要做作业?
和人类学习相似,AI学习也有老师教学、考前自学、作业强化三种学习形式,它们分别被称为监督学习、非监督学习和强化学习。而DeepMind开发的3D小游戏,则是针对机器学习中的强化学习这一模块。
所谓的强化学习,又被称之为再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。
其基本原理是:执行单元的目标是在每个离散状态发现最优策略以使期望的折扣奖赏和最大。因此,如果执行单元的某个行为策略导致环境正的奖赏,那么执行单元以后产生这个行为策略的趋势便会加强。
强化学习把学习看作试探评价过程,执行选择一个动作用于环境,环境接受该动作后状态发生变化,同时产生一个强化信号(奖或惩)反馈给执行单元,执行单元根据强化信号和环境当前状态再选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
是不是已经晕菜啦?没关系,让我们换一种说法。
如果把执行单元看作一个学生,那么强化学习算法就是不停地让他做小测验。作为一个学生,小测验的分数当然越高越好。所以当某道题评分特别低,该学生(即执行单元)就会尽量避免再使用相应的解题思路。而一道题特别高,再遇到相似的题目时,这名学生极有可能会采用之前的答案。
因而,强化学习就如同我们的测验、模考,通过分数将其学习情况反馈给机器,从而使得机器在分数的激励下逐渐变成学霸一枚。
游戏如何改良强化学习?
DeepMind为AI制作游戏,看起来似乎只是更直观地模拟了事件,而并未改变其“小测验”的本质。就如同英语老师说,我们不听写,但是我们今天去玩拼写游戏,大家都要上80分哦。
话虽这么说,但AI边玩边学,真的不只是个噱头而已。
首先,游戏比简单的考试难多了。观之DeepMind为AI设计的游戏——走迷宫、物品收集、钥匙匹配等,考察的是AI的多种决策能力。众所周知,游戏存在多种通关秘籍。当机器可以有采用多种拿高分策略的空间,那么AI在训练中便可以具备多种能力。并且,由于游戏通关这一结果具有单一性,AI在游戏中学会的必然是举一反三,而并非蜻蜓点水。
其次,DeepMind还对于训练的框架做了改良。
三个臭皮匠,顶个诸葛亮。虽然AI的各个执行模块都是在单打独斗,但是DeepMind还是会在适当的时侯让它们交流游戏心得——即在执行单元单独训练中,每个阶段采用的秘籍都是相同的。在每个单元都掌握该通关秘籍后,游戏便会周期性停止,给不同的执行单元以时间,分享该秘籍的优缺点。从而,AI在学习中不但能够掌握变成“状元”的方法,还能在将来毫不费力地变成“状元”。
并且,在交流通关经验方面,执行单元并非是“你一言我一语”的状态。DeepMind在框架中设置了一个学习单元,用于收集各个执行单元的心得体会。之后,学习单元便可以通过不同策略体现的结果,归纳出一个关于所有数据的合理结论。这样一来,一篇完整版游戏攻略便轻而易举地诞生了。不止如此,这一将游戏和学习过程分离开来的模型,让数据的使用效率比DeepMind之前所运用的A3C模型翻了十倍,训练结果表现也比后者翻了一倍。
读芯君开扒
除了梁静茹,谁还给了DeepMind这么做的勇气?
为AI训练制作3D游戏,得益于DeepMind实验室中简单却很灵活的API(Application Programming Interface),它不仅可以让简易的3D游戏制作拥有高效率,从而训练对象学习不同的任务;而且该实验室的游戏引擎功能强大,运行速度飞快,适用各种研究场景。
至于用游戏训练AI,则是根据之前的一套强化学习模型A3C总结而出。在A3C模型中,DeepMind运用拆分执行单元训练的方式,达成对不同类别的强化学习方法的分别应用,并最终集合成合理结论。
留言 点赞 发个朋友圈
我们一起探讨AI落地的最后一公里
作者:羊习习
参考文献链接:
https://www.leiphone.com/news/201803/u2gjEUSwgh45pSUf.html?viewType=weixin
如需转载,请后台留言,遵守转载规范
推荐文章阅读
长按识别二维码可添加关注
读芯君爱你